Telegram Group & Telegram Channel
Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning [2022] - анкап-симуляции с RL-агентами

Я уже писал про рецепт успешных симуляций жизни в конце этого поста, и похожим образом поступили авторы данной работы. Цель исследования - изучать поведение агентов в различных экономических условиях.

Для этого авторы разработали следующую симуляцию: есть ограниченный 2D-мир, состоящий из травы, воды и деревьев с банами и яблоками. Агенты в среде существуют 2 видов - "яблочные фермеры" и "банановые фермеры". Они, соответственно, умеют хорошо добывать яблоки и бананы с этих деревьев, с вероятностью 100% фрукт успешно добавляется в рюкзак. Если яблочный фермер пытается собрать банан, то у него маленький шанс на успех, как и наоборот. Наград тут несколько:

1) Небольшой штраф за движение, за нахождение в воде
2) У агентов есть "голод", и при достижении 0 он начинает получать штраф каждую секунду. Съедание фрукта восстанавливает голод до 30.
3) Самое интересное - яблочный фермер за съедание банана (и наоборот) получает сильно большую награду, чем за съедание "своего фрукта"

Таким образом, каждый из видов агентов умеет хорошо добывать один вид фруктов, но при этом он хочет есть другой вид. Чтобы создать возможность обмена, авторы добавляют возможность агенту посылать в локальную окрестность "оффер" - вектор [x;-y], который обозначает "хочу x яблок за y бананов". Пространство офферов ограничено всего 18 опциями. Далее автоматически эти офферы обрабатываются и сводятся между собой, затем атомарно совершаются. Помимо этого, конечно, агенты могут ходить, собирать и съедать фрукты.

Запуская такую симуляцию, авторы ожидаемо видят, что агенты пользуются возможностью обмена и специализируются на добыче одного фрукта, выменивая его на другой. Далее авторы проводят огромное количество экспериментов, пытаясь "переоткрыть" базовое микроэкономическое поведение у агентов.

Рассмотрим, например, понятие кривых спроса и предложения. Для них нужно сначала ввести понятие цены товара. В данной задаче ценой считается среднее соотношение товаров во всех совершённых обменах. То есть, если агенты обменивали в половине случаев 1:1, в половине 1:2, то средняя цена будет 0.75.

Напомню про сами эти кривые - кривая предложения, к примеру, яблок показывает, по какой цене яблочные фермеры готовы продавать яблоки в зависимости от количества. Кривая спроса - по какой цене банановые фермеры готовы покупать яблоки при разном их количестве. Их пересечение даёт точку равновесия, наблюдаемую на практике.

Двигая одну из этих кривых, по перемещению точки равновесия можно восстановить другую кривую, таким образом, можно нарисовать настоящие кривые спроса и предложения в этой задаче, чем и занимаются авторы. Они регулируют количество яблочных / банановых деревьев, умножая их вероятность спауна на число, и рисуют точки равновесия. Результаты прикреплены к посту. Кривые, вероятно, зашумлены, но ожидаемая в теории закономерность видна.

В статье приводится огромное количество других подобных экономических экспериментов, интересующимся советую прочитать полный вариант. У такого подхода, есть, конечно, и минус - не всегда получаемое поведение обусловлено внешними условиями, а не тем, что агент тупо не смог сойтись к оптимальной точке. Например, если бы мы задали более элементарное пространство действий, агенты могли бы попросту не научиться совершать обмен, потому что это слишком длинная цепочка элементарных операций. Тем не менее, игрушка интересная.

@knowledge_accumulator



tg-me.com/knowledge_accumulator/213
Create:
Last Update:

Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning [2022] - анкап-симуляции с RL-агентами

Я уже писал про рецепт успешных симуляций жизни в конце этого поста, и похожим образом поступили авторы данной работы. Цель исследования - изучать поведение агентов в различных экономических условиях.

Для этого авторы разработали следующую симуляцию: есть ограниченный 2D-мир, состоящий из травы, воды и деревьев с банами и яблоками. Агенты в среде существуют 2 видов - "яблочные фермеры" и "банановые фермеры". Они, соответственно, умеют хорошо добывать яблоки и бананы с этих деревьев, с вероятностью 100% фрукт успешно добавляется в рюкзак. Если яблочный фермер пытается собрать банан, то у него маленький шанс на успех, как и наоборот. Наград тут несколько:

1) Небольшой штраф за движение, за нахождение в воде
2) У агентов есть "голод", и при достижении 0 он начинает получать штраф каждую секунду. Съедание фрукта восстанавливает голод до 30.
3) Самое интересное - яблочный фермер за съедание банана (и наоборот) получает сильно большую награду, чем за съедание "своего фрукта"

Таким образом, каждый из видов агентов умеет хорошо добывать один вид фруктов, но при этом он хочет есть другой вид. Чтобы создать возможность обмена, авторы добавляют возможность агенту посылать в локальную окрестность "оффер" - вектор [x;-y], который обозначает "хочу x яблок за y бананов". Пространство офферов ограничено всего 18 опциями. Далее автоматически эти офферы обрабатываются и сводятся между собой, затем атомарно совершаются. Помимо этого, конечно, агенты могут ходить, собирать и съедать фрукты.

Запуская такую симуляцию, авторы ожидаемо видят, что агенты пользуются возможностью обмена и специализируются на добыче одного фрукта, выменивая его на другой. Далее авторы проводят огромное количество экспериментов, пытаясь "переоткрыть" базовое микроэкономическое поведение у агентов.

Рассмотрим, например, понятие кривых спроса и предложения. Для них нужно сначала ввести понятие цены товара. В данной задаче ценой считается среднее соотношение товаров во всех совершённых обменах. То есть, если агенты обменивали в половине случаев 1:1, в половине 1:2, то средняя цена будет 0.75.

Напомню про сами эти кривые - кривая предложения, к примеру, яблок показывает, по какой цене яблочные фермеры готовы продавать яблоки в зависимости от количества. Кривая спроса - по какой цене банановые фермеры готовы покупать яблоки при разном их количестве. Их пересечение даёт точку равновесия, наблюдаемую на практике.

Двигая одну из этих кривых, по перемещению точки равновесия можно восстановить другую кривую, таким образом, можно нарисовать настоящие кривые спроса и предложения в этой задаче, чем и занимаются авторы. Они регулируют количество яблочных / банановых деревьев, умножая их вероятность спауна на число, и рисуют точки равновесия. Результаты прикреплены к посту. Кривые, вероятно, зашумлены, но ожидаемая в теории закономерность видна.

В статье приводится огромное количество других подобных экономических экспериментов, интересующимся советую прочитать полный вариант. У такого подхода, есть, конечно, и минус - не всегда получаемое поведение обусловлено внешними условиями, а не тем, что агент тупо не смог сойтись к оптимальной точке. Например, если бы мы задали более элементарное пространство действий, агенты могли бы попросту не научиться совершать обмен, потому что это слишком длинная цепочка элементарных операций. Тем не менее, игрушка интересная.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tg-me.com/knowledge_accumulator/213

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

How Does Telegram Make Money?

Telegram is a free app and runs on donations. According to a blog on the telegram: We believe in fast and secure messaging that is also 100% free. Pavel Durov, who shares our vision, supplied Telegram with a generous donation, so we have quite enough money for the time being. If Telegram runs out, we will introduce non-essential paid options to support the infrastructure and finance developer salaries. But making profits will never be an end-goal for Telegram.

How to Buy Bitcoin?

Most people buy Bitcoin via exchanges, such as Coinbase. Exchanges allow you to buy, sell and hold cryptocurrency, and setting up an account is similar to opening a brokerage account—you’ll need to verify your identity and provide some kind of funding source, such as a bank account or debit card. Major exchanges include Coinbase, Kraken, and Gemini. You can also buy Bitcoin at a broker like Robinhood. Regardless of where you buy your Bitcoin, you’ll need a digital wallet in which to store it. This might be what’s called a hot wallet or a cold wallet. A hot wallet (also called an online wallet) is stored by an exchange or a provider in the cloud. Providers of online wallets include Exodus, Electrum and Mycelium. A cold wallet (or mobile wallet) is an offline device used to store Bitcoin and is not connected to the Internet. Some mobile wallet options include Trezor and Ledger.

Knowledge Accumulator from ar


Telegram Knowledge Accumulator
FROM USA